「報告書」：理研SG参加学生国際学会参加報告 (2022年11月24日-12月4日 ML4H, NeurIPS (アメリカ・ニューオーリンズ)

理研SG学会参加報告書

氏名：田中風帆
所属・学年：工学部情報学科・3回生
受入研究者：清田純　教授

出張期間：2022年11月27日～2022年12月4日

参加学会：ML4H, NeurIPS
開催期間：ML4H:11/28 NeurIPS:11/29~12/2
会場：ML4H: Intercontinental NewOrleans
　　　NeurIPS: Convention Center NewOrleans

発表タイトル：Efficient HLA imputation from sequential SNPs data by Transformer
発表形式：ポスター

参加報告：
幼少よりドラえもんを溺愛しており,ひみつ道具を作るために工学部に進学した. 大学で学ぶうち, AIのもつ大きな進歩の可能性と医学の持つ多様な進歩の可能性に惹かれ, 両者を融合させた医学情報学で生まれる技術こそひみつ道具と呼ぶにふさわしいのではないかと思い至った.本格的な研究を行うため理研の清田研にコンタクトをとり, 昨年2月より半年間, 医学深層学習分野での研究をフルリモートで行った. その結果を論文にまとめ Machine Learning for Health (ML4H)に投稿した結果acceptされ, 今回の発表に至った.

ML4H は機械学習やAIを用いて医学の分野を発展させることを目的としたコミュニティである.投稿論文およびポスターのタイトルは ”Efficient HLA Imputation from sequential SNPs data by Transformer”. 日本語訳は”Transformerによる一連SNPデータからの効率的なHLAインピューテーション”である. HLA遺伝子は精神疾患やリウマチなどを含むさまざまな疾患と相関を持つため,その型を予測することは医学上極めて重要である. しかし直接的な型決定には相応の時間とコストがかかるため,観測済みのSNPデータからコンピュータ上でタイピングするのが一般的である. SoTAはCNNベースのモデルであったが, 我々はSNPデータがシーケンシャルであることに着目し,すでにNLPの分野で高い精度を示していたTransformerをベースに新たなモデルを組むことで最高精度を更新した.
40分のポスターセッションの中で,私のポスターに目を向けたのは見ていた限りで20数人,実際に議論をしたのは10人程度だった. 質問者は主にPhD学生だった.男女比率は半々程度. 以下質問内容抜粋.

- Transformer以外のモデル (LSTMなど)では試したのか, その時の精度はどうだったのか
GRU構造を用いた双方向RNNで試した. CNNの方が高精度な結果となった.

- - なぜ提案モデルがCNNより高い精度を出せたのか
Transformerはそのattention機構およびpositional encodingにより,シーケンシャルデータの学習において高い精度を誇ってきた. SNPデータはA,G,C,Tから成る文字列のため,その本質はシーケンシャルである.よってCNNと比べて精度が高くなったのではないかと考察する.

- なぜSNPを0か1のバイナリベクトルで表したのか.塩基の種類も情報に組み込んだ方が精度が高くなるのではないか.
塩基の種類は考慮しない方が精度が高くなった. データ数が少ない状態でデータの次元を大きくすると過学習を起こすのではないかと考察できるが,断言するにはより詳しい解析を行う必要がある.

- この研究にはどのような発展可能性が考えられるか
一点目はHLA遺伝子以外の遺伝子に対するタイピングへの応用. 二点目は訓練データ数が少ない場合における精度の向上 (CNNよりは高いことが示されたが,さらに向上させる余地がある).

NeurIPS (Neural Information Processing Systems)はAI分野のトップカンファレンスの一つである. ML4Hが元々NeurIPSのworkshopだった関係で, こちらの会議にも参加させていただける運びとなった. ポスターセッションはトピックの注目度合いが人だかりの大きさで可視化されるため,私のような初学者にとっては勉強の方針を立てる上で有用であった. 発表内容は理論から応用,系列データから3Dデータまで多岐に渡っており非常に見応えがあった. 医学情報学分野では時系列データの解析が現在の主流であるようで, ワークショップも大賑わいであった. 学会全体の印象として,特筆すべきは女性比率の高さであろう.日本,こと京都大学における情報学系の女性の割合は極めて低いものであるが,この学会では参加者発表者ともに少なくとも4割程度は女性であるように見受けられた.また,大学などのアカデミックな機関のみならず,GAFAをはじめとするテック企業が多くの発表をしている点も印象的であった.世界的な学会ならではの多様性や活気に触れることができたと感じる.

非常に濃密な一週間だった. 得られた情報の量が多すぎるため,私の中で咀嚼しきれていない状態である.今の私ではまだ力不足だが, いずれ私も彼ら彼女らに並ぶような研究ができるように研鑽を続けようと思う. なお,清田研ではすでに次のプロジェクトに向けての準備を開始しており,春には新しい論文をsubmitすることを目標としている.また, 夏にはOISTでの現地インターンを行うことが決定しており,そちらでもゲノムデータに機械学習アルゴリズムを適用する研究を行う予定である.今回以上の成果を出せるよう精進する気勢である.